Numerous works use word embedding-based metrics to quantify societal biases and stereotypes in texts. Recent studies have found that word embeddings can capture semantic similarity but may be affected by word frequency. In this work we study the effect of frequency when measuring female vs. male gender bias with word embedding-based bias quantification methods. We find that Skip-gram with negative sampling and GloVe tend to detect male bias in high frequency words, while GloVe tends to return female bias in low frequency words. We show these behaviors still exist when words are randomly shuffled. This proves that the frequency-based effect observed in unshuffled corpora stems from properties of the metric rather than from word associations. The effect is spurious and problematic since bias metrics should depend exclusively on word co-occurrences and not individual word frequencies. Finally, we compare these results with the ones obtained with an alternative metric based on Pointwise Mutual Information. We find that this metric does not show a clear dependence on frequency, even though it is slightly skewed towards male bias across all frequencies.
translated by 谷歌翻译
While large pretrained language models (PLMs) demonstrate incredible fluency and performance on many natural language tasks, recent work has shown that well-performing PLMs are very sensitive to what prompts are feed into them. Even when prompts are semantically identical, language models may give very different answers. When considering safe and trustworthy deployments of PLMs we would like their outputs to be consistent under prompts that mean the same thing or convey the same intent. While some work has looked into how state-of-the-art PLMs address this need, they have been limited to only evaluating lexical equality of single- or multi-word answers and do not address consistency of generative text sequences. In order to understand consistency of PLMs under text generation settings, we develop a measure of semantic consistency that allows the comparison of open-ended text outputs. We implement several versions of this consistency metric to evaluate the performance of a number of PLMs on paraphrased versions of questions in the TruthfulQA dataset, we find that our proposed metrics are considerably more consistent than traditional metrics embodying lexical consistency, and also correlate with human evaluation of output consistency to a higher degree.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
3D Flash LiDAR是传统扫描激光雷达系统的替代方法,有望在紧凑的外形尺寸中进行精确的深度成像,并且没有运动部件,例如自动驾驶汽车,机器人技术和增强现实(AR)等应用。通常在图像传感器格式中使用单光子,直接飞行时间(DTOF)接收器实施,设备的操作可能会受到需要在室外场景中处理和压缩的大量光子事件的阻碍以及对较大数组的可扩展性。我们在这里提出了一个64x32像素(256x128 spad)DTOF成像器,该成像器通过将像素与嵌入式直方图使用像素一起克服这些局限性,该直方直方图锁定并跟踪返回信号。这大大降低了输出数据帧的大小,可在10 kfps范围内或100 kfps的最大帧速率进行直接深度读数。该传感器可选择性地读数检测表面或传感运动的像素,从而减少功耗和片外处理要求。我们演示了传感器在中端激光雷达中的应用。
translated by 谷歌翻译
机器生成的文本检测方法倾向于集中于人类与机器书面文本的二进制分类。在科学领域,出版商可能会使用这些模型检查在提交中的手稿中,错误分类可能会对作者造成伤害。此外,作者可以适当地使用文本生成模型,例如使用辅助技术(例如翻译工具)。在这种情况下,可以使用二进制分类方案将辅助文本生成技术的适当用途标记为简单的机器生成,这是引起关注的原因。在我们的工作中,我们通过在dagpap22上介绍了在Scielo的机器翻译段落上训练的最先进的检测器,并发现该模型随机执行。鉴于这一发现,我们为数据集开发开发了一个框架,该框架通过拥有用于翻译或释义的技术类型的标签来检测机器生成的文本的细微差别方法,从而导致Synscipass的构建。通过训练在Synscipass上在DAGPAP22上表现良好的相同模型,我们表明该模型不仅对域移动更强大,而且还可以发现用于机器生成的文本的技术类型。尽管如此,我们得出的结论是,当前的数据集既不全面也不是现实的,无法理解这些模型在野外的表现,其中手稿提交可能来自许多未知或新颖的分布,它们将如何在科学的全文上进行,而不是小段落,而不是小段落,当有适当和不适当的自然语言产生使用时,可能会发生什么。
translated by 谷歌翻译
我们考虑通过连续变量(CV)量子电路生成的学习量子状态,测量和通道的任务。这个电路家族适合描述光学量子技术,特别是它包括能够显示量子优势的最先进的光子处理器。我们定义了映射经典变量的函数类别的类别,该变量编码为CV电路参数,以评估这些电路的结果概率。然后,我们通过计算其伪维数或覆盖数字来确定此类类别的有效学习性保证,表明可以以样品复杂性与电路的大小(即模式数量)多一级缩放的样品复杂性来学习CV量子电路。我们的结果表明,可以使用许多训练样本对CV电路进行有效培训,这些训练样品与有限维度对应物不同,它们不会随电路深度扩展。
translated by 谷歌翻译
野火是一种高度普遍的多毒环境现象。这种现象的影响包括人类损失,环境破坏和高昂的经济成本。为了减轻这些效果,已经开发了几个计算机模拟系统,以根据一组输入参数预测火灾行为,也称为场景(风速和方向;温度;等)。但是,由于未知的变量值的不确定性,模拟的结果通常具有高度的误差,因为它们尚不清楚,或者由于其测量可能是不精确,错误或无法实时执行的。先前的工作提出了多种结果的组合,以减少这种不确定性。最先进的方法基于并行优化策略,该策略使用健身函数来指导所有可能场景之间的搜索。尽管这些方法显示了预测质量的改善,但它们具有与用于选择场景的算法有关的一些局限性。为了克服这些局限性,在这项工作中,我们建议应用新颖性搜索范式,该范围取代了目标函数的量度,以衡量所找到的解决方案的新颖性,这使搜索可以与彼此不同的行为不断生成解决方案。这种方法避免了本地Optima,并且可能能够找到有用的解决方案,而其他算法很难或无法找到。与现有方法一样,该提案也可以适用于其他传播模型(洪水,雪崩或滑坡)。
translated by 谷歌翻译
最近在语义Web本体论的背景下研究了受控查询评估(CQE)。 CQE的目标是隐藏一些查询答案,以防止外部用户推断机密信息。通常,存在多种隐藏答案的多种无与伦比的方法,并且先前的CQE方法提前选择了哪些答案是可见的,哪些是不可见的。相反,在本文中,我们研究了一种动态CQE方法,即,我们建议根据对先前的评估更改当前查询的答案。我们的目标是最大程度地合作,除了能够保护机密数据之外,该系统除了能够保护机密数据,这意味着它可以肯定地回答了尽可能多的查询;它通过尽可能延迟答案修改来实现这一目标。我们还表明,我们无法通过静态方法(独立于查询历史记录)在直觉上模拟这种行为。有趣的是,对于通过拒绝表达的OWL 2 QL本体和策略,我们的语义下的查询评估是一阶重写,因此在数据复杂性中是AC0。这为开发实用算法铺平了道路,我们在本文中也初步讨论了这一算法。
translated by 谷歌翻译
Associazione Medici Diabetologi(AMD)收集并管理着全球最大的糖尿病患者记录集合之一,也称为AMD数据库。本文介绍了一个正在进行的项目的初步结果,该项目的重点是人工智能和机器学习技术的应用,以概念化,清洁和分析如此重要且有价值的数据集,目的是提供预测性见解,以更好地支持糖尿病学家的诊断糖尿病学家和治疗选择。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译